2025-01-16 10:42:26.AIbase.
L'équipe Qwen d'Alibaba publie un nouveau modèle de récompense de processus, faisant évoluer le raisonnement mathématique
2024-12-15 10:23:35.AIbase.
Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique
2024-10-14 14:51:30.AIbase.
L'équipe de recherche d'Apple publie une nouvelle référence GSM-Symbolic : révélant les lacunes du raisonnement mathématique des grands modèles de langage !
2024-10-12 14:59:01.AIbase.
L'équipe de recherche sur l'IA d'Apple découvre une faiblesse dans le raisonnement des grands modèles : une seule phrase pour mettre KO OpenAI o1
2024-07-19 16:36:43.AIbase.